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摘要 : 【目的 ] 在 与 基础 研究 密切 相关 的 技术 领域 , 需要 从 专利 信息 中 的 被 引 科学 知识 主题 内 容 出 发 识别 突破 性 
创新 。【 方 法 】 抽 取 专 利 科学 引文 的 关键 词 和 学 科 分 类 表示 被 引 科 学 知识 ; 在 关键 词 共 现 网 络 和 学 科 分 类 组 合 中 
识别 被 引 科 学 知识 的 主题 ; 提出 基于 关键 词 和 学 科 分 类 的 主题 突变 程度 计算 方法 , 六 选 突变 程度 高 的 主题 对 应 
作为 突破 性 创新 发 生 的 技术 主题 ， 对 突破 性 创新 进行 识别 。[ 结果 ] 在 纳米 电子 学 领域 识别 出 已 被 证 实 为 突破 性 
创新 的 纳米 电路 相关 主题 ， 即 纳米 导线 、 碳 纳米 管 、 可 计算 电路 等 纳米 电路 材料 和 制备 主题 , 并 且 是 材料 科学 、 
化 学 、 光 学 、 生 物 学 和 应 用 物理 等 多 学 科 交 叉 融 会 的 结果 ,验证 了 该 方法 的 有 效 性 。[ 局 限 ] 被 引 科 学 知识 抽取 、 
预 处 理 和 匹配 准确 率 需 要 提高 , 方法 通用 性 还 需 在 其 他 领域 进行 验证 。[ 结论 ] 该 方法 是 基于 专利 信息 识别 突破 
性 创新 的 重要 完善 和 补充 ,可 扩展 应 用 到 其 他 与 基础 研究 密切 相关 的 技术 领域 中 识别 突破 性 创新 。 
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18 E 破 性 创新 识别 的 重要 方法 之 一 ， 主 要 利用 专利 信息 中 
的 技术 知识 识别 突破 性 创新 所 如 专利 分 类 聚 类 及 其 

突破 性 创新 (Radical Innovation, RD 是 指 技术 创新 突变、 专利 主题 聚 类 及 其 突变 、 专 利 权 人 合作 以 及 跨 

的 方法 、 产 品 、 设 备 、 材 料 等 技术 主题 发 生 不 连续 性 ” 界 合 作 变 化 、 被 引 专 利 结构 和 被 引 专利 类 别 突变 等 局 。 
变化 , 并 引发 性 能 的 路 迁 或 功能 的 变化 , 最 终 导 致 市 。” 然而, 在 一 些 与 基础 研究 密切 相关 的 技术 领域 , 如 纳 
场 、 产 品 、 服 务 、 商 业 模 式 等 发 生 不 连续 性 变化 "1。 米 科学 、 基 因 工 程 、 医 学 和 生物 科技 等 领域 , 科学 知 
揭示 和 判别 可 能 发 生 突破 性 创新 的 领域 和 主题 , 对 规 。 识 的 突变 或 科学 原理 的 变化 为 引导 技术 创新 和 突破 技 
划 技 术 发 展 方向 和 优先 主题 、 规 避 潜 在 落后 技术 、 优 ” 术 瓶 颈 发 挥 了 更 重要 的 作用 史 ， 需 要 从 专利 信息 中 的 
化 研发 布局 等 具有 重要 意义 , 对 国家 的 科技 计划 制 。 被 引 科 学 知识 出 发 对 突破 性 创新 进行 识别 。 如 第 二 次 
定 、 高 新 技术 产业 和 行业 认定 以 及 企业 的 发 展 规划 制 ”工业 革命 的 多 数 技术 发 明 都 是 建立 在 科学 理论 的 基础 
定 具 有 重要 的 参考 价值 中 。 之 上 的 , 像 电 磁感应 导致 一 系列 电学 应 用 技术 出 现 、X 
专利 是 技术 创新 的 重要 载体 ,专利 信息 分 析 是 突 。 射线 导致 光照 相 技 术 产 生 等 。 技 术 新 颖 性 是 突破 性 
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创新 的 重要 特征 ， 而 被 引 科学 知识 新 颖 性 是 技术 新 颖 
性 的 重要 影响 因素 局 因此, 可 以 利用 科学 关联 度 、 专 
利 引用 的 新 科学 论文 数量 、 专 利 科学 引文 的 时 间 分 布 
等 指标 上 ， 从 专利 科学 引文 整体 上 计算 专利 对 新 兴 科 
学 知识 的 依赖 程度 并 以 此 表示 技术 新 颖 性 ,依赖 程度 
越 高 ， 越 可 能 产生 突破 性 创新 ; 另 一 方面 ,从 被 引 科 
学 知识 的 内 容 出 发 ,通过 比较 不 同时 间 段 中 专利 科学 
引文 的 关键 词 差异 程度 识别 突破 性 创新 发 生 的 时 间 以 
及 代表 性 关键 词 ",， 还 需 进 一 步 从 被 引 科学 知识 的 主 
题 突变 角度 识别 突破 性 创新 发 生 的 具体 技术 主题 和 技 
术 领 域 。 突 破 性 创新 的 另 一 特点 是 多 学 科 交 叉 ， 即 平 
时 不 发 生 相 互联 系 的 知识 领域 之 间 发 生 了 重组 , 更 可 
能 产生 突破 性 创新 ,一 般 通 过 专利 分 类 号 组 合 识别 
技术 交叉 融合 "而 运用 专利 科学 引文 的 所 属 学 科 
分 类 组 合 识 别 突破 性 创新 发 生 的 技术 领域 还 需 进 一 
步 探索 。 

因此 , 本 文 抽 取 专 利 科 学 引文 的 关键 词 和 学 科 分 
类 及 其 关联 关系 表示 被 引 科学 知识 , 在 关键 词 共 现 网 
络 和 学 科 分 类 组 合 中 识别 被 引 科学 知识 的 主题 , 提出 
基于 新 关键 词 和 重复 关键 词 、 基 于 新 学 科 分 类 组 合 和 
重复 学 科 分 类 组 合 的 主题 突变 程度 计算 方法 , JPG 
突变 程度 高 的 主题 对 应 作为 突破 性 创新 发 生 的 技术 主 
题 ， 对 突破 性 创新 进行 识别 ,完善 和 补充 基于 专利 信 
息 的 突破 性 创新 识别 指标 和 方法 。 


2 利用 被 引 科学 知识 主题 突变 识别 突破 性 
创新 


如 果 当 前 专利 所 依据 的 被 引 科学 知识 主题 相对 于 
以 前 专利 发 生 了 突变 , 说 明 当 前 专利 可 能 应 用 了 新 的 
科学 原理 、 技 术 和 方法 , 那么 这 些 专 利 可 能 成 为 突破 
性 创新 ,因此 , 本 文 以 关键 词 和 学 科 分 类 表示 被 引 科 
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学 知识 , 通过 对 被 引 科学 知识 进行 主题 识别 , 并 计算 
不 同 主题 的 突变 程度 , 识别 最 有 可 能 产生 突破 性 创新 
的 技术 主题 和 技术 领域 , 研究 思路 如 图 1 所 示 。 


被 引 科学 知识 
的 主题 识别 


图 1 利用 被 引 科学 知识 主题 突变 识别 突破 性 
创新 的 研究 思路 

2.1 关键 词 共 现 网 络 中 的 被 引 科 学 知识 主题 突变 
通过 对 关键 词 共 现 网 络 进行 聚 类 ,得 到 某 一 技术 
领域 的 多 个 关键 词 主 题 , 对 这 些 主题 的 突变 程度 进行 
计算 ， 遂 选 突变 程度 高 的 主题 作为 可 能 产生 突破 性 创 
新 的 技术 主题 ,对 突破 性 创新 进行 识别 。 由 于 是 专利 
所 依据 的 被 引 科学 知识 突变 ， 因此 ,关键 词 共 现 不 是 
指 关键 词 在 同一 专利 科学 引文 中 出 现 , 而 是 指 在 同一 
专利 的 所 有 专利 科学 引文 中 出 现 。 主 题 识别 应 用 
Louvain 社团 结构 划分 算法 mM 对 关键 词 共 现 网 络 进行 
RK, 下 文 主要 对 以 关键 词 表示 的 主题 突变 程度 计算 
方法 进行 说 明 , 包含 基于 新 关键 词 的 主题 突变 程度 计 
算 和 基于 重复 关键 词 的 主题 突变 程度 计算 。 

(1) 基于 新 关键 词 的 主题 突变 程度 计算 

相对 于 前 一 时 间 段 ， 当 前 时 间 段 某 一 被 引 科学 知 
识 主 题 中 包含 的 新 关键 词 越 多 , 该 主题 的 突变 程度 越 
高 ,， 表明 引用 该 主题 的 技术 创新 的 新 颖 性 越 高 ， 与 该 
主题 相关 的 技术 更 有 可 能 产生 突破 性 创新 。 如 图 2 所 
ZR, TE t FIL tH 时 间 段 ， Ct 和 Cu 分 别 表示 每 个 时 间 段 
的 所 有 关键 词 ，Cui 表示 tl 时 间 段 中 聚 类 得 到 的 i 
主题 的 关键 词 集合 ， 以 Cen 为 对 象 说 明 其 突变 程度 
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的 计算 方式 。 新 关键 词 的 出 现 频 次 同样 会 对 突变 程度 
计算 产生 影响 ,频次 表示 出 现 该 关键 词 的 专利 科学 引 
文 数目 ,分 别 以 wo9 和 wa (k) ez AREE TR] k E tI tH 
时 间 段 的 出 现 频次 。t 时 间 有 段 的 关键 词 以 圆 形 表示 , t+1 
时 间 段 的 关键 词 以 三 角形 表示 。 

人 新 词 数量 突变 率 : 以 tH 时 间 段 ， 某 一 主题 中 新 关键 
词 的 数量 占 该 主题 中 所 有 关键 词 数 量 的 比例 来 表示 。 新 关键 
词 的 数量 所 占 比 例 越 大 , 主题 突 变 程度 越 高 ; 新 关键 词 的 数 
量 所 占 比 例 越 小 主题 突变 程度 越 低 。 相 对 于 t 时 间 段 的 所 
有 关键 词 Cl, tH 时 间 段 i 主题 中 重复 出 现 的 关键 词 数量 为 
ICu 10], Bw i 主题 新 关键 词 的 数量 为 
| Capi |Z| Ceni NCh 并 以 i 主题 的 关键 词 总 数 | Cay | 
sb dp Ja — 4, & 5p 4 y AX OX X o4 0m 
(| Cuni [一 | Cni NC DI Cuni |, PP: 


3r 4c X € 5-1 | Caspi 16 l/l Cornil (1) 
加 新 词 频次 突变 率 : 频次 突变 是 在 数量 突变 的 基础 上 ， 
考虑 主题 中 每 个 新 关键 词 的 出 现 频次 对 突变 程度 的 影响 。 主 
题 中 新 关键 词 的 频次 总 和 所 占 比 例 越 大 ， 突变 程度 越 高 ; 新 
关键 词 的 频次 总 和 所 占 比例 越 小 ， 突变 程度 越 低 。 相 对 于 t 
时 间 段 的 所 有 关键 词 C, t+l 时 间 段 i 主题 中 重复 出 现 的 关键 
词 频次 之 和 为 》 win(k) ,因此 i 主题 新 关键 词 的 频次 


keCu NC 


之 和 为 》 wa- >》 wii(k)， 并 以 i 主题 的 关键 


keCuay ksCtunimcC' 


词 频次 总 和 》 walk) 进行 归 一 化 ,得 到 新 词 的 频次 突 
keC(uyi 


RZA 25 Win(k) E 


keCup; 


È wa- È wato 


kE€Cini kECinni NC, 


Bp: 


新 词 频次 突变 率 =1- Y 


ksCuuimcC 

(2) 基于 重复 关键 词 的 主题 突变 程度 计算 

相对 于 前 一 时 间 段 ， 当 前 时 间 段 某 一 被 引 科学 知 
识 主 题 中 包含 的 重复 关键 词 的 频次 变化 越 大 , 该 主题 
的 突变 程度 越 高 ,表明 引用 该 主题 的 技术 创新 可 能 
得 突破 性 进展 , 与 该 主题 相关 的 技术 更 有 可 能 产生 突 
破 性 创新 。 

重复 关键 词 的 主题 突变 程度 通过 重复 词 频次 突变 
率 来 计算 , 主题 中 重复 词 的 频次 变化 越 大 ， 突变 程度 
越 高 ; 重复 词 的 频次 变化 越 小 ， 突变 程度 越 低 。 如 图 2 
所 示 ， 相 对 于 t 时 间 段 的 所 有 关键 词 C, t+l 时间 上 段 i 


"e > wtr(k) (2) 
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主题 中 重复 词 频次 变化 为 ” Y 


keC(upi NC, 
并 以 trl 时 间 段 i 主题 的 关键 词 频次 总 和 
Y) wa 进行 归 一 化 。 此 处 车 以 tH 时 间 段 i E 


keC(ni 


题 中 的 重复 词 频次 总 和 NM 


keCuamimc' 
则 可 能 造成 包含 少量 频次 变化 较 大 的 重复 关键 词 的 主 
题 突 变 程度 过 高 ， 如 i 主题 共 包含 100 个 关键 词 , 仅 有 
1 个 重复 关键 词 并 且 其 频次 从 t 时 间 段 的 1 增加 到 t+1l 
时 间 段 的 100， 此 时 该 主题 的 频次 突变 率 为 
(100-1)/100, 这 明显 不 符合 实际 情况 。 最 终 得 到 重复 
词 的 频次 突变 率 为 : 
Y ww)/ Y uad) G) 


keC (nC, keC 


2.0 ”学 科 分 类 组 合 中 的 被 引 科学 知识 主题 突变 

以 被 引 科 学 知识 的 所 属 学 科 分 类 组 合 表示 专利 所 
依据 的 知识 领域 重组 ， 对 学 科 分 类 组 合 的 突变 程度 进 
行 计算 ,六 选 突变 程度 高 的 学 科 分 类 组 合作 为 可 能 
生 突 破 性 创新 的 技术 领域 , 对 突破 性 创新 进行 识别 。 
其 中 , 每 条 专利 引用 一 条 或 多 条 专利 科学 引文 ， 而 每 
条 专利 科学 引文 具有 对 应 的 学 科 分 类 ,这 些 学 科 分 类 
便 形成 了 学 科 分 类 组 合 。 与 关键 词 共 现 网 络 中 的 主题 
突变 程度 计算 类 似 , 学 科 分 类 组 合 中 的 主题 突变 同样 
包含 两 种 计算 方式 ， 即 基于 新 学 科 分 类 组 合 的 突变 程 
度 计算 和 基于 重复 学 科 分 类 组 合 的 突变 程度 计算 。 

(1) 基于 新 学 科 分 类 组 合 的 主题 突变 程度 计算 

相对 于 前 一 时 间 段 ， 当 前 时 间 段 某 一 新 学 科 分 类 
组 合 的 出 现 次 数 越 多 , 与 该 学 科 分 类 组 合 对 应 的 被 引 
科学 知识 主题 的 突变 程度 越 高 ,表明 引用 该 主题 的 技 
术 创 新 的 交叉 融合 度 越 高 ,与 该 主题 相关 的 技术 领域 
更 有 可 能 产生 突破 性 创新 。 如 图 3 所 示 , TE CRI tH 时 
间 段 ，Ct 和 Cua 分 别 表 示 每 个 时 间 段 的 所 有 学 科 分 类 
HA, Cen 表示 tH 时 间 段 中 的 i 学 科 分 类 组 合 ， 以 
Cuni 为 对 象 说 明 其 突变 程度 的 计算 方式 。 学 科 分 类 组 
合 的 出 现 频次 表示 出 现 该 组 合 的 专利 数目 , 分 别 以 
WOR wa ORRERA i TE t A tH 时 间 段 的 
出 现 频次 。t 时 间 段 的 学 科 分 类 以 圆 形 表示 , t+1 时 间 
段 的 学 科 分 类 以 三 角形 表示 。 


(win(k)— w,(ü)), 


W (k) 进行 归 一 化 ， 


(t)i 


tel 时 间 段 中 新 学 科 分 类 组 合 的 出 现 次 数 越 多 ， 
主题 突变 程度 越 高 ; 新 学 科 分 类 组 合 的 出 现 次 数 越 少 ， 
主题 突变 程度 越 低 。 基 于 新 学 科 分 类 组 合 的 主题 突变 
程度 以 新 学 科 分 类 组 合 的 频次 突变 率 计算 如 图 3 所 示 ， 
以 tH 时 间 段 新 学 科 分 类 组 合 的 出 现 次 数 weli) EZR, 
HüBieC,-C,, 即 : 


新 学 科 分 类 组 合 的 频次 突变 率 = wal) 


ieCui-C， (4) 


t tl 
新 学 科 分 类 组 合 的 频次 突变 率 
=w (Ò Tes 
EA (€ De 重复 学 科 分 类 组 合 的 频次 突变 率 
O 


图 3 学 科 分 类 纽 合 的 突变 程度 计算 方式 


(2) 基于 重复 学 科 分 类 组 合 的 主题 突变 程度 计算 

相对 于 前 一 时 间 段 ， 当 前 时 间 段 某 一 重复 学 科 分 
类 组 合 的 频次 变化 越 大 ,与 该 学 科 分 类 组 合 对 应 的 被 
引 学 科 知 识 主题 的 突变 程度 越 高 ,表明 引用 该 主题 的 
技术 创新 可 能 取得 突破 性 进展 , 与 该 主题 相关 的 技术 
领域 更 有 可 能 产生 突破 性 创新 。 

基于 重复 学 科 分 类 组 合 的 主题 突变 程度 通过 重复 
学 科 分 类 组 合 的 频次 突变 率 计算 , 主题 中 重复 学 科 分 
类 组 合 的 频次 变化 越 大 ,突变 程度 越 高 ; 重复 学 科 分 
类 组 合 的 频次 变化 越 小 ,突变 程度 越 低 。 如 图 3 所 示 ， 
相对 于 t 时间 段 的 所 有 学 科 分 类 组 合 Cu t+l 时 间 段 重 
复出 现 的 学 科 分 类 组 合 i 的 频次 变化 为 waGD)-wi()， 
Hiec, 0,, 并 以 tt1 时间 段 学 科 分 类 组 合 i 的 出 
现 频 次 wH THAE, 得 到 重复 学 科 分 类 组 合 的 频 
次 突变 率 为 (wuGD-wiGD)/wG ， 即 : 


- " codon will 
重复 学 科 分 类 组 合 的 频次 突变 车 =1- TIO 


3 纳米 电子 学 领域 实证 分 析 

基于 突破 性 创新 的 特征 , 验证 领域 的 选择 需要 遵 
循 以 下 三 个 标准 : 有 其 代表 性 的 突破 性 创新 , 并 已 被 
权威 数据 证 实 ; 对 科学 知识 的 依赖 程度 较 高 ， 即 该 领 
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域 的 科学 关联 度 较 高 ; 热点 的 前 沿 研究 领域 , 因为 突 
破 性 创新 会 在 热点 的 前 沿 领 域 更 多 的 发 生 。 

在 纳米 电子 学 领域 , 包括 纳米 导线 、 以 碳 纳米 管 
和 纳米 导线 为 基础 的 逻辑 电路 以 及 只 用 一 个 分 子 晶 体 
管 的 可 计算 电路 组 合 而 成 的 纳米 电路 被 认定 为 突破 性 
创新 , 在 2001 Æ Science 杂志 公布 的 “年 度 十 大 突破 ” 
dE EU 同时 ， 纳 米 技术 的 专利 科学 引文 比例 
超过 平均 水 平 ， 表 明 该 领域 发 展 至 今 其 基于 科学 的 特 
质 ， 纳 米 技术 领域 对 基础 科学 研究 的 依赖 程度 较 大 吕 ); 
并 且 纳 米 技 术 是 当前 的 热点 研究 领域 ， 而 纳米 电子 学 
是 纳米 技术 的 前 沿 领域 09。 基 于 此 , 本 文 以 纳米 电子 
学 领域 的 数据 对 基于 被 引 科 学 知识 主题 突变 的 突破 性 
创新 识别 方法 进行 验证 ,并 把 纳米 电路 作为 纳米 电子 
学 领域 的 突破 性 创新 ,如 果 该 领域 的 被 引 科学 知识 主 
题 突变 刚好 发 生 在 纳米 导线 、 碳 纳米 管 、 可 计算 电路 
的 相关 领域 , 则 说 明 利用 被 引 科 学 知识 主题 突变 识别 
突破 性 创新 是 可 能 和 可 行 的 。 

3.1 被 引 科学 知识 抽取 

在 Thomson Innovation 中 检索 并 下 载 纳 米 电 子 学 
领域 的 相关 专利 ， 筛 选 出 包含 非 专利 引文 的 专利 ; 38 
过 规则 匹配 的 方式 抽取 非 专利 引文 的 标题 ; 通过 标题 
在 SCI(Science Citation Index) 库 中 检索 得 到 专利 科学 
引文 的 关键 词 和 学 科 分 类 。Shirabe 采用 类 似 的 方法 获 
得 专利 科学 引文 的 相关 元 数据 "1。 

(1) 专利 数据 检索 与 获取 : 在 DWPI (Derwent 
World Patents Index) 中 通过 专利 分 类 号 检索 与 纳米 电 
子 学 相关 的 专利 数据 , 申请 日 期 范围 为 1995 年 1 月 1 
日 到 2005 年 12 月 31 日 , 专利 文献 类 型 识别 代码 为 
Al, A2, A9, Bl, B2, E, H, 检索 到 的 专利 总 数 为 
9 359 条 。 相 应 的 专利 检索 表达 式 为 : 


EC=((B82Y001000)) AND ADB>=(19950101) AND ADB<= 
(20051231) AND KI=(Al or A2 or A9 or Bl or B2 or E or H) AND 
AC-(us) 


D 非 专利 引文 的 标题 抽取 : E ER IL dE 
利 引 文 的 专利 , 9 359 条 专利 中 包含 非 专利 引文 的 专利 
数目 为 4723 条 , 约 占 专利 总 数 的 50%(4 723/9 359), 
对 应 的 非 专 利 引文 数量 为 34 577 条 , 去除 网 页 、 专 利 
申请 以 及 无 法 识别 的 非 专利 引文 后 其 数目 为 32 601 


c 
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条 ; 接着 识别 非 专利 引文 的 标题 , 通过 标题 匹配 的 多 
种 规则 从 32 601 条 非 专 利 引 文中 成 功 识别 出 29355 
条 包含 标题 的 非 专 利 引 文 , 标题 的 具体 匹配 规则 和 相 
应 规则 下 识别 出 的 标题 数量 如 表 1 所 示 ， 匹配 时 按照 
类 型 编号 的 顺序 进行 。 


R1 非 专利 引文 的 标题 抽取 规则 和 相应 数量 
25 规则 数量 
1 ”标题 以 开始， 以 ”结束 16 608 
2 标题 以 ”开始 ， 以 8221 结束 2252 
3 ”标题 以 “开始 ,以 "结束 n 
4 ”标题 以 8220 开始 ,以 8221 结 281 
5 ”标题 以 :开始 ， 以 "结束 801 
ý 标题 以 “<、“、'、8220 中 的 任 一 个 开始 ， 以 '、”、”、 T 

8221 中 的 任 一 个 结束 

示 且 页 | uV JH 开始 qp. 自任- 一 
7 pie et al.,zk et al.;zk et al. 开 始 ， 以 ;,. 中 的 任 2785 
8 ”标题 以 ;,. 中 的 任 一 个 开始 , 以 ;,. 中 的 任 一 个 结束 2233 
9 “无 法 识别 3 246 


(3) 被 引 科学 知识 的 表示 : 去 掉 标 题 长 度 为 1 的 
非 专 利 引 文 后 其 数目 为 29 054 条 , 通过 非 专利 引文 的 
标题 到 SCI 库 中 进行 匹配 得 到 15 525 条 专利 科学 引文 
数据 ,匹配 成 功率 为 53.4%， 这 些 专利 科学 引文 的 
关键 词 和 学 科 分 类 及 其 相互 关系 被 用 来 表示 被 引 科 
学 知识 。 
3.2 ”突破 性 创新 发 生 的 关键 词 主题 识别 

通过 分 析 发 现 ,相对 于 前 一 年 , 1998 年 和 2001 年 
出 现 的 新 关键 词 和 新 学 科 分 类 组 合 的 数量 最 多 , 二 者 
的 增长 幅度 也 最 大 ,导致 突破 性 创新 发 生 的 可 能 性 更 
高 ; 同时 , 纳米 电路 在 2001 年 被 评 为 十 大 突破 性 创新 
ZH. 因此 , 选择 2001 年 被 引 科 学 论文 的 关键 词 及 其 
共 现 关系 为 例 , 对 其 进行 聚 类 得 到 主题 ,并 计算 每 个 
主题 可 能 产生 突破 性 创新 的 可 能 性 ,进而 分 析 突 变 程 
度 较 高 的 主题 。 对 2001 年 的 关键 词 进 行 聚 类 得 到 105 
个 主题 , 选择 突变 程度 最 高 的 主题 进行 说 明 , 同时 , 关 
键 词 变化 程度 最 高 的 前 20 个 关键 词 均 翻译 成 中 文 。 

(1) 基于 新 关键 词 主题 突变 的 突破 性 创新 识别 

依据 公式 (1)- 公 式 (3), 得 到 第 21 个 主题 的 新 词 数 
量 突变 率 为 0.96, 新 词 频次 突变 率 为 0.92, 重复 词 频 
次 突变 率 为 0.63。 该 主题 包含 113 个 关键 词 ,其 中 新 
词 为 109 个, 突变 程度 高 的 前 20 个 关键 词 及 其 频次 如 
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K 2 所 示 。 可 以 看 到 , 该 主题 体现 了 化 学 、 光 学 与 纳 
米 电子 学 的 多 学 科 交 叉 融 合 , 使 纳米 电路 的 工业 化 应 
用 成 为 可 能 。 其 中 ,“ 超 分 子 系统 ”可 以 实现 “ 光 诱 导电 
子 转移 ”， 从 而 使 分 子 内 电子 转移 和 能 量 传 递 成 为 可 
HE, 为 纳米 电路 的 工业 化 应 用 提供 基础 条 件 。“ 语 勒 
炳 "和 “一 氧化 硅 ? 则 是 碳 纳米 管 的 重要 材料 和 来 源 ， 碳 
纳米 管 是 非常 小 的 中 空 管 , 在 电子 工业 有 巨大 的 潜在 
应 用 价值 ,是 一 种 新 结构 “ 富 勒 烯 "。 利 用 “有 机 化 学 ” 
中 的 “还 原 氧化 性 ” 首先 在 碳 纳 米 管 的 内 部 填充 金 
属 、 氧 化物 等 物质 ， 如 “高 度 还 原 的 有 机 金属 配合 物 ”、 
“有 机 过 渡 金 属 配 合 物 " 和 “有 机 亲 电 试剂 "， 再 把 碳 层 
腐蚀 掉 , 就 可 以 制备 出 最 细 的 纳米 尺度 导线 或 者 全 新 
的 一 维 材料 , 在 未 来 的 分 子 电 子 学 器 件 或 纳米 电子 学 
器 件 中 得 到 应 用 。 而 有 些 碳 纳 米 管 本 身 还 可 以 作为 纳 
米 尺度 的 导线 ,这 样 利 用 碳 纳米 管 或 者 相关 技术 制备 
的 微型 导线 可 以 置 于 硅 芯 片上 , 用 来 生产 更 加 复杂 的 
电路 。 


表 2 2001 年 第 21 个 主题 中 突变 程度 前 20 的 关键 词 


"T "m "m "T 
ORKE) 。 (频次 变化 ) GKE) (频次 变化 ) 
还 原 氧化 性 。 Rh 纳米 粒子 ”有 机 亲 电 试剂 ” 光 诱导 电子 

(0,6) (0.6) (0.6) 转移 (0.3) 
光 物理 特性 REI 电子 转移 反应 

(0,6) (0,6) (0,6) (0,3) 

有 机 过 渡 金 属 — 有 机 化 学 。 二 氧化 硅 ”射线 晶体 结构 

配合 物 (0.6) (0.6) (0.6) (0.3) 

E 荷 转移 复合 “阳离子 自由 基 。 桥接 系统 。 荧光 反应 
物 (0.0) (0.6) (0.6) (26) 
ath 分 子 结构 。” 超 分 子 系统 能 量 转移 
(0,6) (0,6) (0,6) (2,6) 


第 5 个 主题 的 新 词 数量 突变 率 为 0.93, 新 词 频次 
突变 率 为 0.88, 重复 词 频次 突变 率 为 0.18。 该 主题 包 
含 190 个 关键 词 ,其 中 新 词 为 177 个 , 突变 程度 高 的 前 
20 个 关键 词 及 其 频次 如 表 3 所 示 。 该 主题 体现 了 化 
学 、 生 物 学 与 纳米 电子 学 的 多 学 科 交 又 融 合 , 使 纳米 
尺度 操作 材料 成 为 可 能 并 在 生物 学 上 进行 应 用 ,也 为 
纳米 电路 组 成 部 分 之 一 的 分 子 晶 体 管 研究 提供 了 基 
础 。 其 中 , “化 学 力 显 微 镜 ”" 和 “原子 力 显微镜 ”是 能 够 代 
表 该 主题 的 核心 内 容 , 原子 力 显微镜 是 一 种 纳米 级 高 
分 辩 率 的 扫描 探 针 显微镜 ， 优 于 光学 衍射 极限 1000 
倍 ， 其 关键 是 “ 探 针 ”的 尖端 曲率 半径 处 于 纳米 量 级 ， 


提供 真正 的 “三 维 " 表 面 图 ， 是 在 纳米 尺度 操作 材料 及 
其 成 像 和 测量 最 重要 的 工具 。 它 可 以 用 来 研究 生物 宏 
观 分 子 , 甚至 活 的 生物 组 织 , 在 “生物 分 子 ” 和 “结构 生 
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膜 作为 基体 ,在 “有 机 物 表面 "上 生长 有 机 和 无 机 纳米 
粒子 。 这 些 纳米 材料 及 其 制备 技术 均 与 纳米 电路 中 的 
纳米 管 和 纳米 线 密切 相关 ， 为 其 应 用 和 发 展 提供 了 基 


物 学 "中 进行 应 用 。 同 时 ,“ 化 学 力 显微镜 ” 则 可 以 进行 。 础 条 件 。 
分 子 功能 的 设计 , 两 种 显微镜 的 “ 仪 絮 标准 化 "和 “设备 表 4 2001 年 第 22 个 主题 中 突变 程度 前 20 的 关键 词 
x yi» ELCHE WS VS a 3 lum 2k > USER 
校准 是 其 面临 的 关键 问题， ARER, 还 需 利用 多 XS SERO X 
种 分 析 技 术 ， 如 “化 学 计量 学 "、“ 多 变量 校正 "和 “ 偏 最 (频次 ) (频次 ) (频次 ) (频次 ) 
小 二 乘 回归 ”等 方法 对 结果 进行 分 析 。 纳米 电路 同样 需 材料 科学 纳米 加 工 微细 加 工 技 。 硫 醇 单 分 子 
3». a Alil EFE Ay M E ovH-2—. ~ E > > Ñ , Jit E 
要 原子 力 显 微 镜 和 化 学 力 显 微 镜 等 仪器 进行 纳米 级 操 LO "s M dum iM P 
s "m" NN 激光 烧 原子 力 显微镜 。 起 学 学 气相 沉 
e, 为 纳米 电路 相关 的 材料 操作 和 分 子 电路 研究 打下 CD mes ^ D — aS 
基础 (如 分 子 晶 体 管 )。 单 壁 碳 纳 ”扫描 探 针 显 微 。 中 呆 阵 列 ”石英 晶体 微 
CA na 
表 3 2001 年 第 5 个 主题 中 突变 程度 前 20 的 关键 词 ABI . ELIO (L1) 天 平 (0,13) 
金 纳米 纳米 光 刻 有 机 物 表面 。 ”模式 转移 
关键 词 关键 词 关键 词 关键 词 (12,38) (1,10) (0,11) (0,10) 
(频次 变化 ) (频次 变化 ) (频次 变化 ) (频次 变化 ) 二 氧化 硅 光 刻 工艺 自 组 装 单 分 链 长 度 依赖 
化 学 力 设备 校准 生物 分 子 糖 (0,25) (3,13) 子 膜 (3,33) 性 (0,14) 
显微镜 (0,12) (0,12) (0,12) (0,12) 
原子 力 显 微 标准 化 结构 生物 学 液 第 20 个 主题 的 新 间 数 量 突变 率 为 0.69, 新 间 频 次 突 
POE es — ae AEAON 031, 重复 词 频次 突变 率 为 0.74.。 该 主题 包含 413 
条 变量 校正 3 维 反射 率 TPE — AS Eon n 
nA (bj ps PUR 个 关键 词 ,其 中 新 闻 为 287 个 ,突变 程度 高 的 前 20 个 关 
仪器 标准 化 “” 偏 最 小 二 乘 “化 学 计量 学 水 溶液 键 词 及 其 频次 变化 如 表 5 所 示 。 该 主题 的 主要 内 容 为 " 碳 
(0,12) 回归 (0.12) (0,12) (0,12) 纳米 管 "、“ 纳 米 管 " SNE, WE, ETR, i 
多 元 仪器 仪器 模型 核磁 共振 近 红 外 EE «lez Ip Mezu | DA i 上 E 
标准 化 (0,12) — 传递 (0,12) (0.12) 光谱 学 (0,12) 索 ” 和 “纳米 线 阵列 等 纳米 线 制备 材料 和 计算 , 以 及 与 电 


(2) 基于 重复 关键 词 主题 突变 的 突破 性 创新 识别 


路 相关 的 关键 词 , 如 "电子 结构 “电子 特性 "、 SBA 
元 阵列 "、“ 回 路 "、“ 场 发 射 "和 "散射" 等。 这 些 纳米 管 相 


第 22 个 主题 的 新 词 数量 突变 率 为 0.77， 新 词 频次 


关 材 料 和 电路 相关 技术 均 与 纳米 电路 紧密 相关 。 


突变 率 为 0.47, 重复 词 频次 突变 率 为 0.78。 该 主题 包 
含 111 个 关键 词 ， 其 中 新 词 为 86 个 ,突变 程度 高 的 前 
20 个 关键 词 及 其 频次 变化 如 表 4 所 示 , 可 以 看 到 , 该 
主题 体现 了 化 学 和 材料 科学 的 多 学 科 交 又 融 合 ,在 “ 材 
料 科学 ”中 ,主要 是 以 “原子 力 显 微 镜 " 和 “扫描 探 针 显 
微 镜 ” 为 工具 , 通过 “纳米 光 刻 ”等 “ 光 刻 工艺 ”合成 多 种 
“纳米 管 " 和 纳米 线 ， 如 “二 氧化 硅 ” 纳 米 管 、“ 单 壁 碳 纳 
米 管 " 和 “ 金 纳米 ” 线 等 。 金 纳米 技术 是 基于 表面 等 离子 
体 激 元 的 纳米 光子 学 ， 即 表面 等 离子 体 激 元 学 , 一 般 
都 封装 在 “二 氧化 硅 ” 溥 膜 " 中 , 在 制造 纳米 光子 集成 
电路 上 的 潜力 巨大 , 受到 了 全 球 庞大 的 微 电 子 工业 的 
广泛 关注 ,纳米 管 和 纳米 线 的 多 种 合成 方法 则 与 “ 超 分 
子 化 学 "密切 相关 ,如 “激光 烧 蚀 ”溶胶 凝 胶 和 "化 学 气 
相 沉 积 ”。 而 “ 自 组 装 单 分 子 膜 "和 “ 硫 醇 单 分 子 膜 " 是 一 
种 重要 的 制备 纳米 粒子 的 方法 , 它 主 要 是 利用 单 分 子 


表 5 2001 年 第 20 个 主题 中 突变 程度 前 20 的 关键 词 


关键 词 关键 词 关键 词 关键 词 
(频次 ) (频次 ) (频次 ) (频次 ) 
碳 纳米 管 量子 线 电子 结构 膜 剂 
(10,107) (12,68) (5,64) (22,127) 
纳米 管 晶体 索 DRIT 单 壁 
(0,32) (4,52) (11,52) (1,61) 
小 管 纳米 线 阵列 BT HE 散射 
(11,50) (9,56) (1,42) (2,32) 
微 管 线 逻辑 单元 迁移 
(10,38) (1,36) 阵列 (2,44) (26,65) 
增长 纳米 丝 可 路 KÉ 
(32,199) (3,36) (0,50) (1,64) 


3.3 ”突破 性 创新 发 生 的 学 科 分 类 主题 识别 

与 突破 性 创新 发 生 的 关键 词 主题 相 一 致 ， 该 部 分 
同样 选择 2001 年 数据 并 对 突破 性 创新 发 生 的 学 科 分 
类 主题 进行 识别 , 通过 新 学 科 分 类 组 合 和 重复 学 科 分 
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类 组 合 识别 突破 性 创新 发 生 的 主题 ,计算 每 个 学 科 分 
类 组 合 可 能 产生 突破 性 创新 的 可 能 性 , 分 析 突 变 程度 


(1) 基于 新 学 科 分 类 组 合 的 突破 性 创新 识别 
依据 公式 (4) 计 算 新 学 科 分 类 组 合 的 突变 程度 ,其 


dr BBI 


最 有 可 能 产生 突破 性 创新 的 重复 学 科 分 类 组 合 以 加 粗 
斜体 字体 标识 。 它 们 分 别 是 电子 电气 工程 和 应 用 物理 
的 组 合 、 应 用 物理 和 凝聚 态 物理 的 组 合 以 及 光学 和 应 
用 物理 的 组 合 ， 这些 学 科 分 类 组 合 与 纳米 电子 学 领域 
的 结合 更 可 能 产生 突破 性 创新 。 与 该 结果 一 致 的 是 ， 


中 频次 大 于 3 的 新 学 科 分 类 组 合 如 表 6 所 示 , 最 有 可 
能 产生 突破 性 创新 的 新 学 科 分 类 组 合 以 加 粗 斜体 字体 
标识 , 它们 是 化 学 、 能 源 与 燃料 、 化 学 工程 、 石 油 工 
程 等 学 科 分 类 的 组 合 以 及 晶体 学 、 材 料 科学 、 光 学 和 
应 用 物理 的 组 合 。 通 过 频次 变化 可 以 发 现 , 这 些 学 科 
的 交叉 融合 使 得 纳米 电子 学 领域 更 可 能 产生 突破 性 创 
新 。 与 该 结果 一 致 的 是 , 最 有 可 能 发 生 突破 性 创新 的 
新 关键 词 主题 中 , 第 21 个 主题 的 关键 词 体现 了 化 学 、 
光学 与 纳米 电子 学 的 多 学 科 交 叉 融 合 , 使 纳米 电路 的 
工业 化 应 用 成 为 可 能 , 与 第 2 个 学 科 分 类 组 合 对 应 ; 
第 5 个 主题 体现 了 化 学 、 生 物 学 与 纳米 电子 学 的 多 学 
Flac tlc, 使 纳米 尺度 操作 材料 成 为 可 能 并 在 生物 
学 上 进行 应 用 , 也 为 纳米 电路 组 成 部 分 之 一 的 分 子 唱 
体 管 研究 提供 了 基础 , 与 第 8 个 学 科 分 类 组 合 对 应 。 
这 也 说 明了 新 学 科 分 类 组 合 对 于 识别 突破 性 创新 所 属 
技术 领域 具有 一 定 作 用 , 能够 为 优势 学 科技 术 领 域 布 
局 提供 参考 。 
表 6 代表 性 的 新 学 科 分 类 组 合 及 其 频次 变化 


序 SEES A 频次 
号 新 的 学 科 分 类 组 合 恋 化 
ME, BEJRALAME, METE AMLE EF (0.6) 
BRE à 
T fidit. WRP, REMH RES (0.6) 
BUE EEISE. EE MAE i 
3 ”多 学 科 材 料 科学 、 凝 聚 态 物理 (0,4) 
4 ”电子 与 电气 工程 、 仪 器 与 设施 (0,3) 
Å 材料 科学 、 多 学 科 、 应 用 物理 、 凝 聚 态 物 理 、 多 (03) 
学 科 物 理 
计算 机 科学 与 人 工 智能 、 计 算 机 硬件 与 结构 、 计 
6 算 机 理论 与 方法 、 电 子 与 电气 工程 、 应 用 物理 、 — (03) 


凝聚 态 物 理 
7 物化 学 、 多 学 科 材 料 科学 (0,3) 
8 物化 学 、 电 子 与 电气 工程 、 材 料 科学 、 多 学 科 、 (0.3) 


应 用 物理 、 物 理 , 原子 , 分 子 和 化 学 、 凝 聚 态 物 理 


(2) 基于 重复 学 科 分 类 组 合 的 突破 性 创新 识别 
依据 公式 (5) 计 算 重 复学 科 分 类 组 合 的 突变 程度 ， 
其 中 突变 程度 较 高 的 重复 学 科 分 类 组 合 如 表 7 所 示 ， 


现代 图 书 情报 技术 


最 有 可 能 发 生 突破 性 创新 的 重复 关键 词 主题 中 , 第 22 
个 研究 主题 主要 提 及 纳米 材料 及 其 相关 制备 技术 , 体 
现 了 化 学 和 材料 科学 的 多 学 科 交 叉 融 合 , 与 第 4 个 重 
复学 科 分 类 组 合 对 应 ; 第 20 个 研究 主题 主要 涉及 纳米 
管制 备 材料 以 及 电路 ,与 材料 科学 、 电 子 与 电气 工程 、 
应 用 物理 和 族 聚 态 物理 相关 ,几乎 在 所 有 的 重复 学 科 
分 类 组 合 中 均 有 部 分 提 及 ,验证 了 基于 重复 学 科 分 类 
组 合 可 以 识别 突破 性 创新 发 生 的 技术 领域 。 


表 7 代表 性 的 重复 学 科 分 类 组 合 及 其 突变 程度 
ak 


序号 重复 的 学 科 分 类 组 合 (频次 变化 ) 突变 程度 
1 AHDE, HEREA A) 0.75 
2. JESÉ. MAYA 0.75 
3 im TX-BALE. WJIBIIEK1653) 0.70 
4 ”化 学 、 材 料 科学 (1,3) 0.67 
5 ”电子 与 电气 工程 、 应 用 物理 、 肇 聚 态 物理 (1.3) 0.67 
有 子 与 电气 工程 、 材 料 科学 、 应 用 物理 、 "T 
凝聚 态 物理 (2,4) 
7 ”电子 与 电气 工程 、 光 学 、 应 用 物理 (5,9) 0.44 


4 总 结 和 展望 


利用 专利 信息 中 的 被 引 科学 知识 突变 识别 技术 突 
变 是 突破 性 创新 识别 的 重要 方向 之 一 , 被 引 科学 知识 
的 主题 和 学 科 分 类 能 够 代表 突破 性 创新 所 发 生 的 技术 
主题 和 技术 领域 , 因此, 本文 以 专利 科学 引文 的 关键 
词 和 学 科 分 类 表示 被 引 科学 知识 , 提出 关键 词 共 现 网 
络 和 学 科 分 类 组 合 中 的 主题 突变 程度 计算 方法 , 对 被 
引 科学 知识 中 的 突变 主题 进行 识别 , 并 以 此 表示 最 有 
可 能 产生 突破 性 创新 的 技术 主题 和 技术 领域 。 在 纳米 
电子 学 领域 进行 的 实验 发 现 ,突变 程度 高 的 被 引 科学 
知识 主题 发 生 在 纳米 导线 、 碳 纳米 管 、 可 计算 电路 等 
与 纳米 电路 材料 和 制备 密切 相关 的 技术 主题 中 ; 学 科 
分 类 组 合 突变 则 主要 集中 在 “化 学 、 能 源 与 燃料 、 结 唱 
学 、 表 征 和 测试 材料 科学 、 涂 层 和 薄膜 材料 科学 、 光 
学 、 应 用 物理 ”组合 和 “应 用 物理 、 凝 罕 态 物理 、 光 学 、 
电子 与 电气 工程 ”组 合 中 , 这 些 组 合 代 表 的 技术 领域 
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与 技术 主题 间 具 有 对 应 关系 。 该 结果 表示 利用 被 引 科 
学 知识 的 主题 突变 识别 突破 性 创新 是 可 能 和 可 行 的 ， 
验证 了 所 提 方 法 的 有 效 性 , 并 可 以 在 其 他 与 科学 知识 
密切 相关 的 技术 领域 进行 扩展 和 应 用 。 

利用 被 引 科学 知识 主题 突变 为 突破 性 创新 识别 提 
供 了 新 思路 , 但 还 存在 很 多 方面 需要 进一步 研究 , 首 
先 ， 以 专利 科学 引文 的 关键 词 和 学 科 分 类 表示 的 被 引 
科学 知识 抽取 准确 率 和 召回 率 还 需 进 一 步 提高 ， 如 穷 
尽 非 专利 引文 标题 的 所 有 抽取 规则 ,并 通过 特定 的 数 
据 库 模 糊 检 索 方 式 进 行 标 题 匹配 ， 从 而 返回 更 多 更 准 
确 的 专利 科学 引文 元 数据 。 同 时 ,专利 科学 引文 的 关 
键 词 中 存在 大 量 意 义 宽泛 的 关键 词 ， 如 增长 、 发 展 等 ， 
由 于 本 文 使 用 的 是 作者 关键 词 ， 如 果 没 有 作者 关键 词 
则 辅 以 机 标 关 键 词 补充 ， 因此 未 对 这 些 数据 进行 处 理 ， 
下 一 步 还 需要 加 强 关键 词 的 预 处 理工 作 。 其 次 , 在 解 
析 某 一 主题 的 关键 词 对 其 研究 内 容 进行 说 明 时 ,关键 
词 间 的 关联 关系 没有 清晰 地 展示 出 来 ， 提 高 了 解析 的 
难度 ,因此 , 还 需要 对 关键 词 间 的 多 种 语义 关系 进行 
抽取 , 挖 据 这 些 主 题解 决 了 什么 技术 问题 , 并 辅 以 可 
视 化 技术 进行 展示 ,请教 相关 领域 专家 进行 解读 。 第 
三 ,本 文 所 提 方 法 能 够 有 效 识别 突破 性 创新 并 有 一 定 
的 预警 作用 , 在 此 基础 上 ,发 现 突破 性 创新 的 形成 机 
理 对 其 进行 预测 还 需 进 一 步 探 索 。 最 后 ， 仅 在 纳米 电 
子 学 领域 进行 了 验证 , 还 需要 在 其 他 领域 验证 该 方法 
的 有 效 性 或 针对 具体 数据 对 其 进行 改进 。 
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Radical Innovation Identification Based on Topic Mutation of 
Scientific Knowledge Cited in Patents 


Zhang Jinzhu! Zhang Xiaolin’ 
'(School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China) 
^(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: [Objective] Technical fields that closely related to basic research require radical innovation identification 
from the content of scientific knowledge cited in patents (SKCP). [Methods] This paper firstly extracts keywords and 
subject categories of scientific references in patents to represent SKCP, then identifies topics in keywords co-occurrence 
network and combinations of subject categories, finally proposes the method of topic mutation degree calculation based 
on keywords and subject categories, to identify technical topics of radical innovation. [Results] In the domain of Nano 
electronics, Nano circuit is an approved radical innovation. The related topics about this are confirmed using proposed 
method including Nano wire, carbon nanotubes, computing circuit, and Nano materials and the manufacturing 
technologies. Moreover, the corresponding combination of subject categories is materials science, chemistry, optics, 
biology and applied physics. [Limitations] The accuracy of SKCP's extraction, preprocessing and matching needs to be 
improved and the generality of method needs to be validated in other areas. [Conclusions] This method is an important 
improvement and supplement of radical innovation identification based on patent information and could be extended to 
other technical fields that are closely related to basic research. 

Keywords: Radical innovation Scientific knowledge cited in patents Topic mutation Mutation rate 


Nano electronics 


现代 图 书 情报 技术 


